首页> 外文OA文献 >Learning Optimal Policies in Markov Decision Processes with Value Function Discovery
【2h】

Learning Optimal Policies in Markov Decision Processes with Value Function Discovery

机译:通过价值函数发现学习马尔可夫决策过程中的最优策略

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

htmlabstractIn this paper we describe recent progress in our work on\udValue Function Discovery (VFD), a novel method for discovery\udof value functions for Markov Decision Processes (MDPs).\udIn a previous paper we described how VFD discovers algebraic\uddescriptions of value functions (and the corresponding\udpolicies) using ideas from the Evolutionary Algorithm field.\udA special feature of VFD is that the descriptions include the\udmodel parameters of the MDP. We extend that work and\udshow how additional information about the structure of the\udMDP can be included in VFD. This alternative use of VFD\udstill yields near-optimal policies, and is much faster. Besides\udincreased performance and improved run times, this\udapproach illustrates that VFD is not restricted to learning\udvalue functions and can be applied more generally.
机译:htmlabstract在本文中,我们描述了\ udValue函数发现(VFD)工作的最新进展,该函数是用于发现马尔可夫决策过程(MDP)的\ udof值函数的新方法。\ ud在以前的论文中,我们描述了VFD如何发现...值函数(以及相应的\ udpolicies)使用了来自Evolutionary Algorithm领域的思想。\ ud VFD的一个特殊功能是描述包括MDP的\ udmodel参数。我们扩展这项工作,并\ udud显示如何在VFD中包含有关\ udMDP结构的其他信息。 VFD \ udstill的这种替代用法可产生接近最佳的策略,并且速度更快。除了提高性能和缩短运行时间外,这种方法还表明VFD不仅限于学习函数,而且可以更广泛地应用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号